La base de données utilisée dans ce TP concerne la géolocalisation des accidents de la route à Paris. Il s’agit plus précisément des bases de données annuelles des accidents corporels de la circulation routière, en particulier le millésime 2019.

« Pour chaque accident corporel (soit un accident survenu sur une voie ouverte à la circulation publique, impliquant au moins un véhicule et ayant fait au moins une victime ayant nécessité des soins), des saisies d’information décrivant l’accident sont effectuées par l’unité des forces de l’ordre (police, gendarmerie, etc.) qui est intervenue sur le lieu de l’accident. Ces saisies sont rassemblées dans une fiche intitulée bulletin d’analyse des accidents corporels. L’ensemble de ces fiches constitue le fichier national des accidents corporels de la circulation dit « Fichier BAAC » administré par l’Observatoire national interministériel de la sécurité routière “ONISR”.

Un certain nombre d’indicateurs issus de cette base font l’objet d’une labellisation par l’autorité de la statistique publique (arrêté du 27 novembre 2019). »


Vous pouvez télécharger les bases de données brutes ici ou utiliser R pour les télécharger dans votre dossier actuel :

# télécharger le dataset
download.file("https://github.com/comeetie/quantilille/blob/master/exercises/data.zip?raw=true", 
              destfile = "data.zip")
# dézipper
unzip("data.zip",exdir=".") 

Exercice 1 : Manipuler des objets sf et les data.frame associés

1

Importer la carte des iris1 ‘iris.75.shp’ de Paris.
Utilisez la fonction sf::st_read().
library(sf)
iris.75 <- st_read("data/iris_75.shp")
Reading layer `iris_75' from data source `/home/comeetie/Projets/quantilille/exercises/data/iris_75.shp' using driver `ESRI Shapefile'
Simple feature collection with 992 features and 2 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: 643075.6 ymin: 6857477 xmax: 661086.2 ymax: 6867081
Projected CRS: RGF93 / Lambert-93

2

Afficher la carte de Paris grâce à l’instruction plot(iris.75). Que remarquez-vous ?
plot(iris.75)
On remarque que R fait plusieurs graphiques : un par variable contenue dans l’objet sf.

3

A quoi sert la fonction sf::st_geometry() ? Quelle solution au problème précédent proposez-vous ?
sf::st_geometry() permet d’isoler l’information contenue dans la colonne geometry de l’objet sf. Cela permet de mettre de côté les autres variables et de n’en afficher qu’une.
plot(st_geometry(iris.75))

4

Importez la couche des accidents de la route appelée ‘accidents_75.shp’ et affichez la carte des accidents dans Paris en utilisant simplement la fonction plot.
Utilisez sf::st_read() et sf::st_geometry(). Vous pouvez aussi customiser la carte en utilisant différents paramètres de la fonction plot : bg, col, lwd, border, pch, cex…
accidents.2019.paris <- st_read("../data/accidents2019_paris.geojson")
Reading layer `accidents2019_paris' from data source `/home/comeetie/Projets/quantilille/data/accidents2019_paris.geojson' using driver `GeoJSON'
Simple feature collection with 11897 features and 11 fields
Geometry type: POINT
Dimension:     XY
Bounding box:  xmin: 643222.2 ymin: 6857482 xmax: 661451.8 ymax: 6867053
Projected CRS: RGF93 / Lambert-93
plot(st_geometry(iris.75), bg = "cornsilk", col = "lightblue", 
     border = "white", lwd = .5)
plot(st_geometry(accidents.2019.paris), col = "red", pch = 20, cex = .2, add=TRUE)
title("Accidents à Paris")

5

Comptez le nombre de personnes accidentées par iris ainsi que le nombre de personnes accidentées mais non blessées.

Utilisez sf::st_intersects() et sapply().

Documentation de la variable grav : Gravité de blessure de l’usager, les usagers accidentés sont classés en trois catégories de victimes plus les indemnes :

1 : Indemne 2 : Tué 3 : Blessé hospitalisé 4 : Blessé léger

library(dplyr)
inter <- st_intersects(x = iris.75, y = accidents.2019.paris)
inter_nonbless <- st_intersects(x = iris.75, y = accidents.2019.paris %>% filter(grav==1))
iris.75$nbacc <- sapply(inter, length)
iris.75$nbaccnb <- sapply(X = inter_nonbless, FUN = length)
head(iris.75)
Simple feature collection with 6 features and 4 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: 648979.6 ymin: 6861839 xmax: 654353.1 ymax: 6866159
Projected CRS: RGF93 / Lambert-93
  CODE_IRIS INSEE_COM                       geometry nbacc nbaccnb
1 751197316     75119 MULTIPOLYGON (((653970.6 68...     4       2
2 751176716     75117 MULTIPOLYGON (((649189.3 68...     7       3
3 751103703     75110 MULTIPOLYGON (((652767.6 68...    14       5
4 751187104     75118 MULTIPOLYGON (((652827.6 68...     4       2
5 751114314     75111 MULTIPOLYGON (((654272.9 68...    11       4
6 751103707     75110 MULTIPOLYGON (((652960.8 68...    11       5

6

Utilisez la couche ‘iris.75’, pour créer une nouvelle couche cartographique agrégée appelée ‘com.75’ qui correspond aux ‘arrondissements’ de Paris. Gardez aussi dans cette nouvelle couche l’information sur le nombre de personnes accidentées et le nombre de personnes accidentées non blessées dans chaque arrondissement.

Information

La couche cartographique ‘iris.75’ contient un code de 5 chiffres dans sa variable INSEE_COM qui correspond au code de l’arrondissement.
Utilisez les fonctions du package classique dplyr : select, group_by et summarize. Ces fonctions fonctionnent également avec les objets sf.
library(dplyr)
com.75 <- iris.75 %>%
  group_by(INSEE_COM) %>%
  summarize(nbacc = sum(nbacc),
            nbaccnb = sum(nbaccnb)) 

plot(st_geometry(iris.75), col = "ivory3", border = "ivory1")
plot(st_geometry(com.75), col = NA, border = "ivory4", lwd = 2, add = TRUE)

Exercice 2 : Cartes interactives

Dans cet exercice, nous allons utiliser mapview pour explorer les accidents de la route ayant eu lieu à Paris en 2019.

En complément, nous allons utiliser les données d’OSM permettant de croiser le lieu des accidents avec les routes empruntées.

1

Chargez la base de données ‘accidents.2019.paris’ et affichez les positions des 11 897 personnes victimes d’un accident à Paris en 2019 grâce au package mapview. Essayez d’utiliser différents paramètres pour customiser votre carte.

Information

Par exemple, vous pouvez utiliser les paramètres map.types, col.regions, label, color, legend, layer.name, homebutton, lwd … du package mapview.
library(mapview)
library(sf)

accidents.2019.paris <- st_read("data/accidents2019_paris.geojson")
mapview(accidents.2019.paris, map.types = "OpenStreetMap",
        col.regions = "#940000",
        label = accidents.2019.paris$Num_Acc,
        color = "white", legend = TRUE, layer.name = "Accidents à Paris en 2019",
        homebutton = FALSE, lwd = 0.2)
Reading layer `accidents2019_paris' from data source `/home/comeetie/Projets/quantilille/data/accidents2019_paris.geojson' using driver `GeoJSON'
Simple feature collection with 11897 features and 11 fields
Geometry type: POINT
Dimension:     XY
Bounding box:  xmin: 643222.2 ymin: 6857482 xmax: 661451.8 ymax: 6867053
Projected CRS: RGF93 / Lambert-93

2

  1. Utilisez les polygones de ‘iris.75’ pour extraire la “bounding box” de Paris en projection WGS84.

  2. Récupérez ensuite grâce à osmdata, à l’intérieur de cette bounding box", le fond de carte du périphérique parisien (key = "highway", value = "trunk")

  3. Faites l’intersection entre les accidents et le périphérique, en prenant soin d’ajouter une zone tampon de 50 mètres autour de ce dernier et appeler ce nouvel ensemble de points accidents.2019.paris.periph.

Utiliser sf::st_bbox() et sf::st_transform() pour extraire la bounding box. Le code epsg de WGS84 est 4326.

Utiliser :

  • osmdata:opq() pour définir la bounding box de la requête osm
  • osmdata:add_osm_feature() pour définir la paire key:value recherchée
  • osmdata:osmdata_sf() pour récupérer les données osm.
library(osmdata)

#1. bounding box
bb      <- iris.75 %>% st_transform(4326) %>% st_bbox()
q       <- opq(bbox = bb,timeout = 180)

#2. périphérique
qt      <- add_osm_feature (q, key = 'highway',value = 'trunk', value_exact = FALSE)
roads    <- c(osmdata_sf(qt))$osm_lines %>% st_transform(st_crs(iris.75))

#3. zone tampon et intersection
accidents.2019.paris.periph <- st_intersection(accidents.2019.paris,
                                               st_intersection(st_geometry(roads),iris.75)  %>%
                                                 st_buffer(dist = 50) %>%
                                                 st_union()
)  

periph = st_geometry(roads %>% filter(name=="Boulevard Périphérique Extérieur"))

  


periph_count=st_sf(periph %>% st_buffer(50),id=1:length(periph)) %>% st_join(accidents.2019.paris) %>% count(id)

1

Affichez les positions des 2 073 personnes victimes d’un accident à Paris SUR LE PERIPHERIQUE en 2019 grâce au package mapview. Essayez à nouveau d’utiliser différents paramètres pour customiser votre carte.

Information

Par exemple, vous pouvez utiliser les paramètres map.types, col.regions, label, color, legend, layer.name, homebutton, lwd … du package mapview.
library(mapview)
library(sf)

mapview(accidents.2019.paris.periph, map.types = "OpenStreetMap",
        col.regions = "#940000",
        color = "white", legend = TRUE, layer.name = "Accidents sur le périphérique à Paris en 2019",
        homebutton = FALSE, lwd = 0.2)

Bonus : compter les points dans une grille

5

Utiliser la fonction pt_in_grid ci-dessous pour compter le nombre de personnes accidentées dans des cellules de 500m de côté.

Utilisez mapview pour afficher la grille choroplèthe.
pt_in_grid <- function(feat, adm, cellsize = 1000){
  grid <- st_make_grid(x = adm, cellsize = cellsize, what = "polygons")
  . <- st_intersects(grid, adm)
  grid <- grid[sapply(X = ., FUN = length)>0]
  . <- st_intersects(grid, feat)
  grid <- st_sf(n = sapply(X = ., FUN = length), grid)
  return(grid)
}
library(RColorBrewer)
gr <- pt_in_grid(accidents.2019.paris,iris.75,500)
bks = quantile(gr$n)
cols <- brewer.pal(length(bks), "Reds")

mapview(st_as_sf(gr)  %>% st_transform(4326),
        map.types = "Stamen.TonerLite",
        color = "white",
        col.regions = cols,
        alpha = 0.9,
        at = bks, 
        legend = TRUE,
        layer.name = "Nombre d'accidents par</br>carreau de 500 mètres",
        homebutton = FALSE, lwd = 0.2)

Exercice 3 : Cartes statiques

Nous aimerions créer avec le package ggplot2 une carte des arrondissements de Paris qui combine le nombre de personnes accidentées et la part de celles qui n’ont pas été blessées.

1

Préparation des données :

  • Chargez le fond de carte ‘com75_shp’ (qui contient le nombre de personnes accidentées, en tout et non blessées, dans chaque arrondissement) et créez une variable appelée part_non_blesses qui correspond à la part des personnes non blessées parmi les accidentées dans chaque arrondissement.
  • Créez un vecteur des quartiles de la variable part_non_blesses.
  • Créez le vecteur de couleur qui correspond au nombre de classes définies plus tôt.
  • Ajouter une variable appelée typo à ‘com.75’ qui indique la classe de l’arrondissement selon la discrétisation contenue dans bks pour la variable part_non_blesses.

Information

Pour la création de ‘bks’ et de ‘cols’, utilisez les fonctions quantile et RColorBrewer::brewer.pal. Pour la création de la variable typo, vous pouvez utiliser la fonction cut avec les paramètres digit.lab = 2 et include.lowest = TRUE.
library(sf)
# Importer les données
com.75 <- st_read("data/com_75.shp", quiet = TRUE)
# Créer la variable
com.75$part_non_blesses <- 100 * com.75$nbaccnb / com.75$nbacc
# Définir les bks par quantile
bks <- quantile(com.75$part_non_blesses, na.rm = TRUE)
# Définir une palette de couleurs
library(RColorBrewer)
cols <- brewer.pal(length(bks)-1,"Greens")

# For ggplot2 maps - Create a "typo" variable
library(dplyr)
com.75 <- com.75 %>%
  mutate(typo = cut(part_non_blesses, breaks = bks,labels = paste0(round(bks[1:(length(bks)-1)])," à ",round(bks[2:length(bks)])),
                    include.lowest = TRUE))

2

En utilisant la package ggplot2, créez une carte qui contient en choroplèthe la variable part_non_blesses et en cercles proportionnels la variable nbacc.
library(ggplot2)

map_ggplot <- ggplot() +
  geom_sf(data = com.75, aes(fill = typo), colour = "grey80") +
  scale_fill_manual(name = "Part des non-blessés parmi les\naccidentés de la route (en %)",
                    values = cols) +
  geom_sf(data = com.75 %>%  st_centroid(),
          aes(size = nbacc), fill = "#f5f5f5", color = "grey20", shape = 21, 
          stroke = 1, alpha = 0.8, show.legend = "point") +
  scale_size_area(max_size = 12, name = "Nombre de personnes\n accidentées") +
  coord_sf(crs = 2154, datum = NA,
           xlim = st_bbox(com.75)[c(1,3)],
           ylim = st_bbox(com.75)[c(2,4)]) +
  theme_minimal() +
  theme(panel.background = element_rect(fill = "cornsilk", color = NA), 
        legend.position = "bottom", plot.background = element_rect(fill = "cornsilk",color=NA)) +
  labs(title = "Accidents de la route à Paris en 2019",
       caption = "fichier BAAC 2019, ONISR\nantuki & comeetie, 2021") +
  guides(size = guide_legend(label.position = "bottom", title.position = "top",
                             override.aes = list(alpha = 1, color = "#ffffff")),
         fill = guide_legend(label.position = "bottom", title.position = "top"))

plot(map_ggplot)

Exercice 4 : Bonus

Ce dernier exercice va s’appuyer sur les données des listings AirBnB à paris. Disponniblent sur le site Inside AirBnB.

1

Préparation des données Air BnB:

  • Chargez le fichier listings.csv et convertissez le en data.frame sf.
  • Explorez un peu ces données avec mapview
  • Projetez le en Lambert 93 (code epsg 2154)

2

Préparation des données OSM

  • Récupérez les localisations des stations de métros de Paris via osm data (key = ‘station’,value = ’subway).
  • Faites en une data.frame spatiale propre et filtrez la pour ne conservez que la ligne avec un champ name de renseigné et supprimez les doublons éventuelles (sur le champ nom).
  • Projetez la en Lambert 93 (code epsg 2154)

3

Préparation des Voronoi

  • Créez les voronoi associés aux stations de métros
  • Faites l’interstection entre ces voronois et la bounding-box des listings
  • Créez a partir de ces polygones une data.frame sf avec l’id osm des stations de métros ainsi que leurs noms.

4

Résumé statistique

  • Aggrégez les listings sur les voronois et calculez le nombre d’annonce, le prix moyen et median ainsi que la variance des prix.

5

Essayez de reproduire cette figure :

6

Vous pourez vous servir de ce vecteur de sélection de quelques stations de métro:
sel_metro=c('Filles du Calvaire','Colonel Fabien','Saint-Placide','Rennes','Les Halles','Tolbiac','Denfert-Rochereau','Oberkampf','Montparnasse-Bienvenüe','La Tour Maubourg','Mairie des Lilas','École Militaire','Saint-Germain-des-Prés','Boulogne - Pont de Saint-Cloud',"Gare de l'Est","Place d'Italie",'Richard Lenoir','Saint-Lazare','Porte de la Villette','Palais Royal - Musée du Louvre','Château Rouge','Gare du Nord (Métro)','Strasbourg - Saint-Denis','Poissonnière','Balard','Gare de Lyon',"Porte d'Italie","Gare d'Austerlitz")

7

Essayez de reproduire cette carte :


Reproducibilité

sessionInfo()
R version 4.1.0 (2021-05-18)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04.2 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
 [1] LC_CTYPE=fr_FR.UTF-8       LC_NUMERIC=C               LC_TIME=fr_FR.UTF-8       
 [4] LC_COLLATE=fr_FR.UTF-8     LC_MONETARY=fr_FR.UTF-8    LC_MESSAGES=fr_FR.UTF-8   
 [7] LC_PAPER=fr_FR.UTF-8       LC_NAME=C                  LC_ADDRESS=C              
[10] LC_TELEPHONE=C             LC_MEASUREMENT=fr_FR.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] ggspatial_1.1.5    readr_1.4.0        ggplot2_3.3.3      RColorBrewer_1.1-2
[5] osmdata_0.1.5      mapview_2.9.9      dplyr_1.0.6        sf_0.9-8          
[9] knitr_1.33        

loaded via a namespace (and not attached):
 [1] httr_1.4.2              jsonlite_1.7.2          assertthat_0.2.1       
 [4] sp_1.4-5                highr_0.9               stats4_4.1.0           
 [7] yaml_2.2.1              pillar_1.6.1            lattice_0.20-44        
[10] glue_1.4.2              uuid_0.1-4              digest_0.6.27          
[13] rvest_1.0.0             colorspace_2.0-1        leaflet.providers_1.9.0
[16] htmltools_0.5.1.1       pkgconfig_2.0.3         raster_3.4-10          
[19] purrr_0.3.4             scales_1.1.1            webshot_0.5.2          
[22] brew_1.0-6              svglite_2.0.0           satellite_1.0.2        
[25] tibble_3.1.2            proxy_0.4-25            generics_0.1.0         
[28] farver_2.1.0            ellipsis_0.3.2          withr_2.4.2            
[31] cli_2.5.0               magrittr_2.0.1          crayon_1.4.1           
[34] evaluate_0.14           fansi_0.5.0             xml2_1.3.2             
[37] class_7.3-19            tools_4.1.0             hms_1.1.0              
[40] lifecycle_1.0.0         stringr_1.4.0           munsell_0.5.0          
[43] compiler_4.1.0          e1071_1.7-7             systemfonts_1.0.2      
[46] rlang_0.4.11            classInt_0.4-3          units_0.7-1            
[49] grid_4.1.0              unilur_0.4.0.9000       leafpop_0.1.0          
[52] rstudioapi_0.13         htmlwidgets_1.5.3       crosstalk_1.1.1        
[55] leafem_0.1.6            base64enc_0.1-3         labeling_0.4.2         
[58] rmarkdown_2.8           gtable_0.3.0            codetools_0.2-18       
[61] DBI_1.1.1               curl_4.3.1              R6_2.5.0               
[64] lubridate_1.7.10        utf8_1.2.1              KernSmooth_2.23-20     
[67] stringi_1.6.2           Rcpp_1.0.6              vctrs_0.3.8            
[70] png_0.1-7               leaflet_2.0.4.1         tidyselect_1.1.1       
[73] xfun_0.23              

  1. Iris est un zonage statistique de l’Insee dont l’acronyme signifie « Ilots Regroupés pour l’Information Statistique ». Leur taille est de 2000 habitants par unité.↩︎